Qwen3-TTS: Открытый многоязычный TTS с реальным временем
Изучите Qwen3-TTS от Alibaba Cloud — многоязычную систему TTS с управлением голосом и мгновенной реакцией.
Найдено записей: 29
Изучите Qwen3-TTS от Alibaba Cloud — многоязычную систему TTS с управлением голосом и мгновенной реакцией.
Изучите новую модель Nemotron Speech ASR от NVIDIA, разработанную для голосовых агентов и живой субтитровки с низкой задержкой.
'Microsoft выпустил VibeVoice 1.5B — открытую TTS модель, способную генерировать до 90 минут выразительной речи с поддержкой до четырех говорящих и кросс языкового синтеза.'
'GLM-4.5V от Zhipu AI — открытая мультимодальная модель с 106B параметрами в фоне и 12B активных параметров, поддержкой 64К токенов и режимом Thinking Mode для сложного визуально-текстового анализа.'
NASA представила Galileo — открытую мультимодальную модель ИИ, которая интегрирует разнообразные данные дистанционного зондирования для задач сельского хозяйства и реагирования на чрезвычайные ситуации.
Trackio — бесплатная и открытая библиотека Python, которая упрощает отслеживание экспериментов в машинном обучении благодаря локальному хранению, интеграции с Hugging Face и удобному онлайн-дашборду.
Google представил открытый MCP Toolbox для баз данных, который упрощает и защищает работу AI-агентов с SQL-базами, обеспечивая эффективные и масштабируемые запросы с минимальной конфигурацией.
Kyutai представила инновационную стриминговую TTS-модель с 2 миллиардами параметров и задержкой 220 мс, обученную на 2,5 миллиона часов аудио. Модель поддерживает одновременную работу с несколькими пользователями и подходит для реального времени.
Together AI представила DeepSWE — открытого RL-агента для программирования на базе Qwen3-32B с лучшими результатами на бенчмарке SWEBench, устанавливая новые стандарты автономных AI для разработки.
Baidu выпустила ERNIE 4.5 — серию открытых больших языковых моделей с параметрами от 0.3 до 424 миллиардов, обладающих продвинутой архитектурой и высокой производительностью в многоязычных задачах.
Tencent представила Hunyuan-A13B — эффективную открыто исходную MoE-языковую модель с двойным режимом рассуждения и поддержкой огромных контекстов до 256K токенов, демонстрирующую передовые результаты на бенчмарках.
Исследователи DeepSeek выпустили nano-vLLM — компактную и эффективную Python-реализацию движка vLLM, сочетающую простоту и производительность для вывода LLM.
OpenAI опубликовала открытый демо-пример многоагентной системы службы поддержки с использованием Agents SDK, включающий защитные ограничения и прозрачный интерфейс общения.
ReVisual-R1 — инновационная открытая мультимодальная языковая модель на 7 млрд параметров, которая достигает высоких результатов в комплексном рассуждении благодаря уникальному трехэтапному процессу обучения.
DeepCoder-14B — открытая AI-модель для эффективной и прозрачной генерации кода, сопоставимая с проприетарными решениями и способствующая сотрудничеству и доступности.
Meta AI представила V-JEPA 2 — мощную открытую модель с самостоятельным обучением на масштабных видео данных для улучшенного видеоанализа и робототехнического планирования с высокими показателями точности и скорости.
Команда Alibaba Qwen выпустила серию Qwen3-Embedding и Qwen3-Reranker — открытые многоязычные модели embedding и ранжирования, превосходящие существующие решения.
Hugging Face представила SmolVLA — эффективную и доступную модель визуально-языкового управления, обеспечивающую управление роботами в реальном времени на недорогом оборудовании с открытыми ресурсами.
NovelSeek — революционная AI-система, которая автономно управляет полным циклом научных исследований, значительно ускоряя открытия в химии, биологии и компьютерном зрении.
Microsoft выпускает NLWeb — открытый проект, который позволяет легко превратить любой вебсайт в AI-приложение с поддержкой естественного языка, упрощая интеграцию разговорного ИИ.
Salesforce выпустила BLIP3-o — открытую мультимодальную модель, объединяющую понимание и генерацию изображений с помощью CLIP эмбеддингов и Flow Matching, демонстрируя передовые результаты.
Rime представила Arcana и Rimecaster — открытые голосовые AI-модели, обученные на естественной речи для повышения реалистичности и гибкости голосовых приложений.
Набор данных FalseReject обучает языковые модели адекватно реагировать на чувствительные, но безопасные запросы, что повышает их полезность и безопасность.
ByteDance представила DeerFlow — модульный мультиагентный фреймворк, объединяющий большие языковые модели и специализированные инструменты для автоматизации сложных исследовательских задач с участием человека.
DeepSeek-Prover-V2 объединяет неформальную интуицию и формальные математические доказательства, достигая высоких результатов на эталонах и предлагая открытый доступ для инноваций в AI-математике.
NVIDIA представила открытый доступ к моделям Open Code Reasoning (32B, 14B, 7B), которые показывают лучшие результаты в задачах работы с кодом и совместимы с популярными AI-фреймворками.
NVIDIA представила Parakeet TDT 0.6B — открытую модель ASR, которая транскрибирует час аудио за одну секунду и достигает лучших показателей точности, устанавливая новый стандарт в индустрии.
JetBrains выпустила Mellum — языковую модель с 4 миллиардами параметров, специализированную для задач программирования, чтобы улучшить AI-поддержку в разработке ПО.
Skywork AI представляет R1V2 — современную мультимодальную модель с гибридным обучением с подкреплением, которая улучшает специализированное рассуждение и обобщение, превосходя многие открытые и проприетарные модели.